#contaminación de benchmarks

Brecha de fiabilidad en auditoría de benchmarks: cambio de distribución y escala

Descubre por qué la detección de contaminación en benchmarks de IA falla por cambio de distribución y escala. Estudio con 335 evaluaciones muestra la brecha.

2026-06-03 · 1 min

CoEval: ranking de modelos sin datos ni benchmarks confiables

Descubre CoEval: un framework que evalúa y rankea modelos de lenguaje sin necesidad de datos etiquetados ni benchmarks fiables. Resultados limpios y por solo $5.89.

2026-06-03 · 2 min